09. 动作值函数

动作值函数

注意 :在这门课程中,我们将不加区分地使用“回报”和“折扣回报”。对于任意时间步 t ,这两个术语都指代 G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots = \sum_{k=0}^\infty \gamma^k R_{t+k+1} ,其中 \gamma \in [0,1] 。尤其是,当我们提到“回报”时,并不一定是指 \gamma = 1 ,当我们提到“折扣回报”时,并不一定就是 \gamma < 1 。( 推荐 教科书 也是这种情况。